Detecting out-of-distribution (OOD) inputs during the inference stage is crucial for deploying neural networks in the real world. Previous methods commonly relied on the output of a network derived from the highly activated feature map. In this study, we first revealed that a norm of the feature map obtained from the other block than the last block can be a better indicator of OOD detection. Motivated by this, we propose a simple framework consisting of FeatureNorm: a norm of the feature map and NormRatio: a ratio of FeatureNorm for ID and OOD to measure the OOD detection performance of each block. In particular, to select the block that provides the largest difference between FeatureNorm of ID and FeatureNorm of OOD, we create Jigsaw puzzle images as pseudo OOD from ID training samples and calculate NormRatio, and the block with the largest value is selected. After the suitable block is selected, OOD detection with the FeatureNorm outperforms other OOD detection methods by reducing FPR95 by up to 52.77% on CIFAR10 benchmark and by up to 48.53% on ImageNet benchmark. We demonstrate that our framework can generalize to various architectures and the importance of block selection, which can improve previous OOD detection methods as well.
translated by 谷歌翻译
深度学习取得了面部识别基准的出色性能,但是对于低分辨率(LR)图像,性能大大降低了。我们提出了一种注意力相似性知识蒸馏方法,该方法将作为教师的高分辨率(HR)网络获得的注意图转移到LR网络中,以提高LR识别性能。受到人类能够基于从HR图像获得的先验知识近似物体区域的人类的启发,我们设计了使用余弦相似性的知识蒸馏损失,以使学生网络的注意力类似于教师网络的注意力。在各种LR面部相关的基准上进行的实验证实了所提出的方法通常改善了LR设置上的识别性能,通过简单地传输良好的注意力图来优于最先进的结果。 https://github.com/gist-ailab/teaching-where-where-to-look在https://github.com/github.com/github.com/phis-look中公开可用。
translated by 谷歌翻译
我们提出了一种称为基于DNN的基于DNN的框架,称为基于增强的相关匹配的视频帧插值网络,以支持4K的高分辨率,其具有大规模的运动和遮挡。考虑到根据分辨率的网络模型的可扩展性,所提出的方案采用经常性金字塔架构,该架构分享每个金字塔层之间的参数进行光学流量估计。在所提出的流程估计中,通过追踪具有最大相关性的位置来递归地改进光学流。基于前扭曲的相关匹配可以通过排除遮挡区域周围的错误扭曲特征来提高流量更新的准确性。基于最终双向流动,使用翘曲和混合网络合成任意时间位置的中间帧,通过细化网络进一步改善。实验结果表明,所提出的方案在4K视频数据和低分辨率基准数据集中占据了之前的工作,以及具有最小型号参数的客观和主观质量。
translated by 谷歌翻译
Wearable sensor-based human activity recognition (HAR) has emerged as a principal research area and is utilized in a variety of applications. Recently, deep learning-based methods have achieved significant improvement in the HAR field with the development of human-computer interaction applications. However, they are limited to operating in a local neighborhood in the process of a standard convolution neural network, and correlations between different sensors on body positions are ignored. In addition, they still face significant challenging problems with performance degradation due to large gaps in the distribution of training and test data, and behavioral differences between subjects. In this work, we propose a novel Transformer-based Adversarial learning framework for human activity recognition using wearable sensors via Self-KnowledgE Distillation (TASKED), that accounts for individual sensor orientations and spatial and temporal features. The proposed method is capable of learning cross-domain embedding feature representations from multiple subjects datasets using adversarial learning and the maximum mean discrepancy (MMD) regularization to align the data distribution over multiple domains. In the proposed method, we adopt the teacher-free self-knowledge distillation to improve the stability of the training procedure and the performance of human activity recognition. Experimental results show that TASKED not only outperforms state-of-the-art methods on the four real-world public HAR datasets (alone or combined) but also improves the subject generalization effectively.
translated by 谷歌翻译
与关节位置相比,在皮肤多人线性模型(SMPL)基于多视图图像的基于皮肤的多人线性模型(SMPL)的人网格重建中,关节旋转和形状估计的准确性相对较少。该领域的工作大致分为两类。第一种方法执行关节估计,然后通过将SMPL拟合到最终的接头来产生SMPL参数。第二种方法通过基于卷积神经网络(CNN)模型直接从输入图像中回归SMPL参数。但是,这些方法缺乏解决联合旋转和形状重建和网络学习难度的歧义的信息。为了解决上述问题,我们提出了一种两阶段的方法。提出的方法首先通过从输入图像中的基于CNN的模型估算网格顶点的坐标,并通过将SMPL模型拟合到估计的顶点来获取SMPL参数。估计的网格顶点提供了足够的信息来确定关节旋转和形状,并且比SMPL参数更容易学习。根据使用Human3.6M和MPI-INF-3DHP数据集的实验,所提出的方法在关节旋转和形状估计方面显着优于先前的作品,并在关节位置估计方面实现了竞争性能。
translated by 谷歌翻译
在许多视觉应用程序中,查找跨图像的对应是一项重要任务。最新的最新方法着重于以粗到精细的方式设计的基于端到端学习的架构。他们使用非常深的CNN或多块变压器来学习强大的表示,这需要高计算能力。此外,这些方法在不理解对象,图像内部形状的情况下学习功能,因此缺乏解释性。在本文中,我们提出了一个用于图像匹配的体系结构,该体系结构高效,健壮且可解释。更具体地说,我们介绍了一个名为toblefm的新型功能匹配模块,该模块可以大致将图像跨图像的空间结构大致组织到一个主题中,然后扩大每个主题内部的功能以进行准确的匹配。为了推断主题,我们首先学习主题的全局嵌入,然后使用潜在变量模型来检测图像结构将图像结构分配到主题中。我们的方法只能在共同可见性区域执行匹配以减少计算。在室外和室内数据集中进行的广泛实验表明,我们的方法在匹配性能和计算效率方面优于最新方法。该代码可在https://github.com/truongkhang/topicfm上找到。
translated by 谷歌翻译
在本文中,我们提出了一个健壮的模仿学习(IL)框架,该框架在扰动环境动态时改善了IL的稳健性。在单个环境中训练的现有IL框架可能会因环境动力学的扰动而灾难性地失败,因为它无法捕获可以更改潜在环境动态的情况。我们的框架有效地处理了具有不同动态的环境,通过模仿了采样环境动力学中的多个专家,以增强环境动力学的一般变化中的鲁棒性。为了强力模仿多个样本专家,我们将代理商政策与每个样本专家之间的Jensen-Shannon分歧降低了风险。数值结果表明,与常规IL基准相比,我们的算法显着提高了针对动力学扰动的鲁棒性。
translated by 谷歌翻译
本文研究了在线性季节控制设置中权力下放程度与分布式控制器的性能之间的权衡。我们在图形和分布式控制器上研究一个互连代理系统,称为$ \ kappa $分布式控件,该系统使代理可以根据距离$ \ kappa $在基础图上的状态信息做出控制决策。该控制器可以使用参数$ \ kappa $调整其权力下放化程度,从而允许表征权力下放和绩效之间的关系。我们表明,在温和的假设下,包括可稳定性,可检测性和次数增长的图形条件,$ \ kappa $分布式控制和集中式最佳控制之间的性能差异在$ \ kappa $中呈指数级较小。该结果表明,分布式控制可以通过中等程度的权力下放实现近乎最佳的性能,因此它是用于大规模网络系统的有效控制器体系结构。
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
本文提出了一种新的序列模型学习架构,用于解决部分可观察到的马尔可夫决策问题。而不是在基于传统的复发性神经网络的方法中压缩在每个时间步骤中的顺序信息,所提出的架构在每个数据块中生成一个潜变量,其长度是多个时间步来,并将最相关的信息传递给策略优化的下一个块。所提出的障碍顺序模型是基于自我关注来实现的,使得能够以部分可观察的设置进行详细顺序学习的模型。所提出的模型建立了一个额外的学习网络,以通过使用自归一化重要性采样有效地实现梯度估计,这在模型学习中不需要复杂的群体输入数据重建。数值结果表明,该方法在各种部分可观察环境中显着优于先前的方法。
translated by 谷歌翻译